데이터 분석 분야의 오픈채팅방이 얼마나 활발하게 진행 되고 있는지 파악해보자. 중점은 비정형 데이터인 카카오톡 데이터를 정형화 시키느것, 반응형 그래프와 테이블을 만들었다는것, 그리고 도메인 지식이 없으면 이에 대한 해석이 힘들 거라느 점이다. 이곳에서 코드 설명은 따로 하지 않을 예정이고, 코드 설명에 대한 내용은 블로그에다가 나누어서 설명을 해보려고 한다.

문의

이름: 최의용
Email :
블로그 주소: 오픈채팅방 분석 - 비정형 데이터의 정형화
깃허브 주소: https://github.com/Unfinishedgod
페이스북 주소: https://www.facebook.com/shjj08


데이터분석 QnA&네트워킹

데이터 관계자들이 만드는 정보공유 소통 커뮤니티, 데분방(DATAROOM)입니다. 라는 슬로건의 데이터분석 커뮤니티이다.
현재 약 1237명(2019-08-06기준) 정도가 오픈채팅방에 소속되어 있으며, 특히 R, 파이썬 관련한 질문 답변이 활발하다.
그럼 이제 이 곳의 7월 오픈채팅방의 생태계를 조사해보자.

공식 링크: www.dataroom.kr
카톡 링크: https://open.kakao.com/o/gcaPzHr


1. 일별 카톡 트래픽

하루에 몇개의 카톡이 오고 가는가를 보려고 한다. 경험상 1200명의 사람들이 매일 같이 질문답변을 함에도, 많이 하는날이 있고 적게 하는 날이 있었다.



2. 시간별 카톡 트래픽

시간별 얼마나 카톡이 오고가는지 알아보자. 이 수치를 알아보는 이유는 다음과 같다.
- 주로 몰리는 특정 시간대가 있는가? - 또는, 주로 몰리게 되는 주요 키워드가 존재하는가?
몰리는 시간대야 쉽게 이를 통해 알 수 있지만 이 카톡방에서의 경험상 특히 몰리는 키워드가 있었다.(Ex. R이랑 파이썬 어떤거 공부 해야 할까요?, 대학원 가야 할까요? 등등)



3. 자주 쓰는 단어

시간대별 트래픽이중 상위 5개의 시간에 대한 키워드를 알아보자. 트래픽이 몰렸을때의 주요 키워드를 알아보도록 하자. 가령, 시간대가 점심이면 점심밥에 대한 이야기를, 금요일 밤이면, 월요일 아침이면, 그에 대한 키워드가 나올 것이다. 그리고 특정 키워드가 사람들을 참여하게 한다면 어떤 키워드 인지도 파악해보자.


2019-07-05 12:00:00 ~ 2019-07-05 12:59:00 의 키워드

1시간동안 343건의 카톡을 했다. 아래 그래프를 보자. 가장 많은 단어가 독학이다. 그리고, 아래에 점점 보이는 단어는 캐글, 경력 ,코딩 등등이 나오고 17번째로 메달이나오는걸로 봐서 “데이터 분석을 공부 하고 싶은데 독학으로도 괜찮을까요?” 라는 질문으로 이야기가 진행 된듯 싶다.

2019-07-13 18:00:00 ~ 2019-07-13 18:59:00 의 키워드

1시간동안 311건의 카톡을 했다. 아래 그래프를 보자. 연봉이다. 매우 민감한 단어 연봉. 좀 더 보면, 생각, 회사, 삼성(연봉얘기엔 삼성에 비교를 하는가보다.), 실력, 경력, 대기업, 대학원, 신입, 사업 등등이 눈에 보인다. 연봉 이야기로 시작해서, 위의 키워드의 대화가 오갔을 것이다. “연봉 xxxx 적절한가요?”,“삼성은 xxxx 받는다는데요 와..”,“역시 대기업이구나”,“실력 있으면 받는거죠 뭐”,“신입에 xxxx정도면 적당한거죠”,“차라리 실력 좀 키워서 옮기세요”, “돈벌라면 사업 해야죠..”

2019-07-03 10:00:00 ~ 2019-07-03 10:59:00 의 키워드

1시간동안 285건의 카톡을 했다. 아래 그래프를 보자. 데이터라는 키워드가 제일 많이 보이고, 그 아래로는 특징이 추측되지 않는 단어들로 연결되어 있다. 위의 두 테이블은 그동안 오픈채팅방에서 내가 봐왔던 경험에 의존하여 단어들로 추측을 했었지만 이번에는 쉽게 추측이 되지 않는다.

2019-07-08 23:00:00 ~ 2019-07-08 23:59:00 의 키워드

1시간동안 238건의 카톡을 했다. 아래 그래프를 보자. 최상위 키워드 ‘분석’ 가지고는 쉽게 유추가 되지 않는다. 그러나, 특징을 잡을 수 있는 단어가 있는데, 이탈, 접속, 게임 ,유저, 경험, 레벨 이라는 단어가 있다. 이부분에 대해서 유추를 하기 위해서는 아주 강력한 도메인 지식 (카톡방에서의 경험과, 사회 트렌드)가 필요하다.
7월 초에 빅콘테스트 경진 대회를 개최 했다. 매우 큰 규모의 경진 대회로, 이중 챔피언리그 항목에서 ‘엔씨소프트에서 제공하는 ‘리니지’ 고객 활동 데이터를 활용하여 향후 고객이탈 방지를 위한 프로모션 수행 시 예상되는 잔존가치를 산정하는 예측 모형 개발’ 이라는 대회가 있다. 그래서 이 당시에 이 대회를 통해 화두를 던지고 ’고객 이탈 방지 예측 모델’에 대해서, 이야기를 나누었던것 같다.

2019-07-16 15:00:00 ~ 2019-07-16 15:59:00 의 키워드

1시간동안 200건의 카톡을 했다. 아래 그래프를 보자. 이 테이블을 보면, 20대 초반의 학생들의 질문으로 대화가 오가지 않았나 싶다. 초반부에는 크게 보이지 않지만 뒤에 군대라는 키워드, 그리고 입문, 전공, 취업 등등이 나오는걸로 봐서는 쉽게 유추를 해볼 수 있다.


4. 파레토 법칙

파레토 벅칙이 어떻게 적용 되는가?
- 파레토 법칙: 파레토 법칙( - 法則, 영어: Pareto principle, law of the vital few, principle of factor sparsity) 또는 80 대 20 법칙(영어: 80–20 rule)은 ’전체 결과의 80%가 전체 원인의 20%에서 일어나는 현상’을 가리킨다.[3] 예를 들어, 20%의 고객이 백화점 전체 매출의 80%에 해당하는 만큼 쇼핑하는 현상을 설명할 때 이 용어를 사용한다. 2 대 8 법칙라고도 한다. (출처: 위키)

말 그대로 오픈채팅방에서 전체 카톡의 80%를 차지하는 대화가 주 멤버 20%의 비율에서 나오는지 알아보려고 한다. 한계점이 있다면, 카톡에서는 대화를 할때 문장을 작성하는 경우도 있지만 단어를 한줄씩 작성하면서 문장을 완성하는 경우도 있다.
아래 테이블로 대화의 비중에서 80% 에 해당하는 비율이 몇%를 차지하는지 알아보자.
보면 단 6명의 대화가 전체 대화의 20%를 차지 하는데, 이를 해석 해보자면 - 카톡 대화 전처리의 한계 - 잠수중인 인원 처리의 한계 - 극심한 양극화 (커뮤니티의 특성상 이 현상은 종종 보이긴 하더라.) 정도로 해석해 볼 수 있겠다.


### 5. 7월의 가입/탈퇴 7월 한달 동안 몇명이 가입 했고, 몇명이 나갔고, 이 트렌드는 어떠 할까?

총 168 명이 나갔고, 204명이 들어 왔다. 이를 더 자세히 파악하기 위해서는 사실 7월 뿐 아니라 전체 데이터를 가지고 파악을 해본는게 좋다. 시험기간만 되면 갑자기 들어와서 질문을 하는 사람들이 꽤 증가 하고, 시험이 끝난과 동시에 카톡방에서 나가는 사람들이 종종 있기 때문이다. 또, 방학이니 공부를 해보려는 사람도 있을 수 있고, 다른 이유로 데이터 분석 오픈채팅방을 찾는 유저가 있을 수 있기 때문이다.




총평

내가 주로 사용하는 오픈채팅방의 비정형 데이터를 정형화 시켜서, 그리고 나의 경험에 비추어서 분석을 해보았다. 특히 도메인 지식이 없이는 이 카톡 데이터를 어떻게 해석 해도 어떠한 결과를 얻기 힘들거라는 생각이 너무 든다. 또한, 분석의 방향도 잘 잡아야한다고 생각을 했는데, 아까 시간별 트렌드를 파악 하려고 할 때 좀 더 현명한 방법이 있었을까 하는 생각이 든다. 차후에 이 분석은 캐글관련 오픈 채팅방에도 적용을 시켜보려고 한다.